提供者:朱述承
下载地址:http://www.cl.ut.ee/korpused/paralleel/
内容
这个语料库包含:
爱沙尼亚法律及其英文翻译,392个文件。
翻译成爱沙尼亚语的欧盟立法,2981 + 1093个文件。
文件名称反映源文件名称。
语料来源
语料来源于2002年4月30日爱沙尼亚法律语言中心(www.legaltext.ee)。对齐版本基于同一文件的TEI P3兼容版本。
标注
文本已经被句子对齐。列表项被视为等同于句子。爱沙尼亚语和英语句子可能会以1-1,1-2或2-1排列。在这个语料库中没有其他路线(如1-0,0-1,2-2等)。他们或者没有找到,或者被搁置在一旁,因为他们在未来的工作中很难使用,其目的是找到并行的多字单位。
标签
下标和上标用和 标记。通常情况下,原始或翻译单元包含其中之一,但相应的并行单元不包含其中之一。
大小
爱沙尼亚语 - 英语平行文本
在392个文件中有153,500个并行单位(句子或列表项)。爱沙尼亚语有170万tokens,英语有290万tokens。
英文 - 爱沙尼亚语平行文本
根据源文本的原始划分,英文 - 爱沙尼亚文平行文本分为两组:在2981 + 1093个文件中,224,323 + 57,836个并行单位(句子或列表项)。爱沙尼亚语2.6 + 0.7百万tokens,英语3.9 + 1.0百万tokens。